Algorithmes de classification répartis sur le cloud

نویسنده

  • Matthieu DURUT
چکیده

The subjects addressed in this thesis are inspired from research problems faced by the Lokad company. These problems are related to the challenge of designing efficient parallelization techniques of clustering algorithms on a Cloud Computing platform. Chapter 2 provides an introduction to the Cloud Computing technologies, especially the ones devoted to intensive computations. Chapter 3 details more specifically Microsoft Cloud Computing offer : Windows Azure. The following chapter details technical aspects of cloud application development and provides some cloud design patterns. Chapter 5 is dedicated to the parallelization of a well-known clustering algorithm: the Batch K-Means. It provides insights on the challenges of a cloud implementation of distributed Batch K-Means, especially the impact of communication costs on the implementation efficiency. Chapters 6 and 7 are devoted to the parallelization of another clustering algorithm, the Vector Quantization (VQ). Chapter 6 provides an analysis of different parallelization schemes of VQ and presents the various speedups to convergence provided by them. Chapter 7 provides a cloud implementation of these schemes. It highlights that it is the online nature of the VQ technique that enables an asynchronous cloud implementation, which drastically reduces the communication costs introduced in Chapter 5.

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

De nouvelles pondérations adaptées à la classification de petits volumes de données textuelles

Résumé. Un des défis actuels dans le domaine de la classification supervisée de documents est de pouvoir produire un modèle fiable à partir d’un faible volume de données. Avec un volume conséquent de données, les classifieurs fournissent des résultats satisfaisants mais les performances sont dégradées lorsque celui-ci diminue. Nous proposons, dans cet article, de nouvelles méthodes de pondérati...

متن کامل

Algorithmes rapides de boosting de SVM

Résumé. Les algorithmes de boosting de Newton Support Vector Machine (NSVM), Proximal Support Vector Machine (PSVM) et Least-Squares Support Vector Machine (LS-SVM) que nous présentons visent à la classification de très grands ensembles de données sur des machines standard. Nous présentons une extension des algorithmes de NSVM, PSVM et LS-SVM, pour construire des algorithmes de boosting. A cett...

متن کامل

Evaluation de la Performance de la Classification d'un Système Question/Réponse

RÉSUMÉ. La plupart des systèmes question/réponse se basent sur trois axes principaux : classification et analyse de la question, recherche de document pertinents et extraction de la réponse. La performance à chaque étape affecte le résultat final. La classification de question apparaît comme une tâche importante car elle infère le type de réponse attendu. Dans cet article, nous présentons des m...

متن کامل

Corroboration de vues discordantes fondée sur la confiance∗

Résumé. Cet article traite de la corroboration d’informations, dans le contexte de vues exprimant des opinions sur des faits de façon éventuellement contradictoire. Il s’agit de prédire si un fait est vrai ou faux. Des méthodes d’agrégation simples comme le vote donnent déjà de bons résultats, mais nous présentons dans cet article des algorithmes qui tiennent compte de la confiance dans les vue...

متن کامل

De l'estimation locale par imagerie q-ball à la tractographie des croisements de fibres

RÉSUMÉ. Le croisement de fibres est un problème important dans la plupart des algorithmes de suivi de fibres basés sur l’imagerie du tenseur de diffusion (DTI). Pour surmonter les limites du DTI, des techniques d’IRM à haute résolution angulaire (HARDI) comme l’imagerie par q-ball (QBI) ont été introduites. Le but de cet article est de présenter un état de l’art des techniques de reconstruction...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

عنوان ژورنال:

دوره   شماره 

صفحات  -

تاریخ انتشار 2012